Search CORE

4 research outputs found

Поэтология: задачи построения тезауруса и спецификации стихового текста

Author: Maria Karyaeva S.
Vladimir Boykov N.
Владимир Бойков Николаевич
Мария Каряева Сергеевна
Publication venue: 'P.G. Demidov Yaroslavl State University'
Publication date: 18/12/2017
Field of study

It is a brief version of the report made by the authors at the seminar “Modeling and Analysis of Information Systems”, Yaroslavl, May 17, 2017. The interrelation of problems of computeraided constructing the thesaurus and specification of verse texts in poetology is considered. Представлено краткое изложение доклада авторов на семинаре “Моделирование и анализ информационных систем”, Ярославль, 17 мая 2017 г. В нём рассматривается взаимосвязь задач по автоматизации построения тезауруса и спецификации текста стихотворного произведения в поэтологии.

Modeling and Analysis of Information Systems / Моделирование и анализ информационных систем (МАИС)

Векторное представление слов с семантическими отношениями: экспериментальные наблюдения

Author: Maria Karyaeva S.
Pavel Braslavski I.
Valery Sokolov A.
Валерий Соколов Анатольевич
Мария Каряева Сергеевна
Павел Браславский Исаакович
Publication venue: 'P.G. Demidov Yaroslavl State University'
Publication date: 19/12/2018
Field of study

The ability to identify semantic relations between words has made a word2vec model widely used in NLP tasks. The idea of word2vec is based on a simple rule that a higher similarity can be reached if two words have a similar context. Each word can be represented as a vector, so the closest coordinates of vectors can be interpreted as similar words. It allows to establish semantic relations (synonymy, relations of hypernymy and hyponymy and other semantic relations) by applying an automatic extraction. The extraction of semantic relations by hand is considered as a time-consuming and biased task, requiring a large amount of time and some help of experts. Unfortunately, the word2vec model provides an associative list of words which does not consist of relative words only. In this paper, we show some additional criteria that may be applicable to solve this problem. Observations and experiments with well-known characteristics, such as word frequency, a position in an associative list, might be useful for improving results for the task of extraction of semantic relations for the Russian language by using word embedding. In the experiments, the word2vec model trained on the Flibusta and pairs from Wiktionary are used as examples with semantic relationships. Semantically related words are applicable to thesauri, ontologies and intelligent systems for natural language processing.Возможность идентификации семантической близости между словами сделала модель word2vec широко используемой в NLP-задачах. Идея word2vec основана на контекстной близости слов. Каждое слово может быть представлено в виде вектора, близкие координаты векторов могут быть интерпретированы как близкие по смыслу слова. Таким образом, извлечение семантических отношений (отношение синонимии, родо-видовые отношения и другие) может быть автоматизировано. Установление семантических отношений вручную считается трудоемкой и необъективной задачей, требующей большого количества времени и привлечения экспертов. Но среди ассоциативных слов, сформированных с использованием модели word2vec, встречаются слова, не представляющие никаких отношений с главным словом, для которого был представлен ассоциативный ряд. В работе рассматриваются дополнительные критерии, которые могут быть применимы для решения данной проблемы. Наблюдения и проведенные эксперименты с общеизвестными характеристиками, такими как частота слов, позиция в ассоциативном ряду, могут быть использованы для улучшения результатов при работе с векторным представлением слов в части определения семантических отношений для русского языка. В экспериментах используется обученная на корпусах Флибусты модель word2vec и размеченные данные Викисловаря в качестве образцовых примеров, в которых отражены семантические отношения. Семантически связанные слова (или термины) нашли свое применение в тезаурусах, онтологиях, интеллектуальных системах для обработки естественного языка

Modeling and Analysis of Information Systems / Моделирование и анализ информационных систем (МАИС)

Poetology: Problems of Constructing a Thesaurus and Verse Text Specification

Author: Maria S. Karyaeva
Vladimir N. Boykov
Publication venue: 'P.G. Demidov Yaroslavl State University'
Publication date: 01/12/2017
Field of study

Directory of Open Access Journals

Word Embedding for Semantically Relative Words: an Experimental Study

Author: Maria S. Karyaeva
Pavel I. Braslavski
Valery A. Sokolov
Publication venue: 'P.G. Demidov Yaroslavl State University'
Publication date: 01/12/2018
Field of study

Directory of Open Access Journals